智能论文笔记

The French National Institute of Geographical and Forest Information (IGN) has the mission to document and measure land-cover on French territory and provides referential geographical datasets, including high-resolution aerial images and topographic maps. The monitoring of land-cover plays a crucial role in land management and planning initiatives, which can have significant socio-economic and environmental impact. Together with remote sensing technologies, artificial intelligence (IA) promises to become a powerful tool in determining land-cover and its evolution. IGN is currently exploring the potential of IA in the production of high-resolution land cover maps. Notably, deep learning methods are employed to obtain a semantic segmentation of aerial images. However, territories as large as France imply heterogeneous contexts: variations in landscapes and image acquisition make it challenging to provide uniform, reliable and accurate results across all of France. The FLAIR-one dataset presented is part of the dataset currently used at IGN to establish the French national reference land cover map "Occupation du sol \`a grande \'echelle" (OCS- GE).

translated by 谷歌翻译

Synthesizing Annotated Image and Video Data Using a Rendering-Based Pipeline for Improved License Plate Recognition

Andreas Spruck , Maximilane Gruber , Anatol Maier , Denise Moussa , Jürgen Seiler , Christian Riess , André Kaup

分类：计算机视觉

2022-09-28

在神经网络应用中，不足的培训样本是一个常见的问题。尽管数据增强方法至少需要最少数量的样本，但我们提出了一种基于新颖的，基于渲染的管道来合成带注释的数据集。我们的方法不会修改现有样本，而是合成全新样本。提出的基于渲染的管道能够在全自动过程中生成和注释合成和部分真实的图像和视频数据。此外，管道可以帮助获取真实数据。拟议的管道基于渲染过程。此过程生成综合数据。部分实现的数据使合成序列通过在采集过程中合并真实摄像机使综合序列更接近现实。在自动车牌识别的背景下，广泛的实验验证证明了拟议的数据生成管道的好处，尤其是对于具有有限的可用培训数据的机器学习方案。与仅在实际数据集中训练的OCR算法相比，该实验表明，角色错误率和错过率分别从73.74％和100％和14.11％和41.27％降低。这些改进是通过仅对合成数据训练算法来实现的。当另外合并真实数据时，错误率可以进一步降低。因此，角色错误率和遗漏率可以分别降低至11.90％和39.88％。在实验过程中使用的所有数据以及针对自动数据生成的拟议基于渲染的管道公开可用（URL将在出版时揭示）。

translated by 谷歌翻译

在本文中，我们提出了一个用于光学特征识别（OCR）的数据增强框架。所提出的框架能够合成新的视角和照明方案，从而有效地丰富任何可用的OCR数据集。它的模块化结构允许修改以符合单个用户需求。该框架使得可以舒适地扩展可用数据集的扩大因子。此外，所提出的方法不仅限于单帧OCR，但也可以应用于视频OCR。我们通过扩大普通BRNO移动OCR数据集的15％子集来证明框架的性能。我们提出的框架能够利用OCR应用程序的性能，尤其是对于小型数据集。应用提出的方法，在字符错误率（CER）方面提高了多达2.79个百分点，并在子集中获得了高达7.88个百分点。特别是可以改善对具有挑战性的文本线条的认识。该类别的CER可能会降低14.92个百分点，而该级别的CER可下降到18.19个百分点。此外，与原始的非仪式完整数据集相比，使用建议方法的15％子集进行训练时，我们能够达到较小的错误率。

translated by 谷歌翻译

法医车牌识别（FLPR）仍然是在法律环境（例如刑事调查）中的公开挑战，在刑事调查中，不可读取的车牌（LPS）需要从高度压缩和/或低分辨率录像（例如监视摄像机）中解密。在这项工作中，我们提出了一个侧面信息变压器体系结构，该结构嵌入了输入压缩级别的知识，以改善在强压缩下的识别。我们在低质量的现实世界数据集上显示了变压器对车牌识别（LPR）的有效性。我们还提供了一个合成数据集，其中包括强烈退化，难以辨认的LP图像并分析嵌入知识对其的影响。该网络的表现优于现有的FLPR方法和标准最先进的图像识别模型，同时需要更少的参数。对于最严重的降级图像，我们可以将识别提高多达8.9％。

translated by 谷歌翻译